Diffusion models have achieved state-of-the-art synthesis quality on visual and audio tasks, and recent works adapt them to textual data by diffusing on the embedding space. But the difference between the continuous data space and the embedding space raises challenges to the diffusion model, which have not been carefully explored. In this paper, we conduct systematic studies and analyze the challenges threefold. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the loss function. Secondly, as the norm of embedding varies between popular and rare words, adding the same noise scale will lead to sub-optimal results. In addition, we find that noises sampled from a standard Gaussian distribution may distract the diffusion process. To solve the above challenges, we propose Difformer, a denoising diffusion probabilistic model based on Transformer, which consists of three techniques including utilizing an anchor loss function, a layer normalization module for embeddings, and a norm factor to the Gaussian noise. All techniques are complementary to each other and critical to boosting the model performance together. Experiments are conducted on benchmark datasets over two seminal text generation tasks including machine translation and text summarization. The results show that Difformer significantly outperforms the embedding diffusion baselines, while achieving competitive results with strong autoregressive baselines.
translated by 谷歌翻译
为了在商店中充分利用计算机视觉技术,需要考虑适合零售场景特征的实际需求。为了实现这一目标,我们介绍了联合零售数据集(Unitail),这是针对检测,阅读和匹配算法的产品的基本视觉任务的大规模基准。凭借注释的180万个四边形实例,该Unitail提供了一个检测数据集,以更好地对齐产品外观。此外,它提供了一个包含1454个产品类别,30k文本区域和21k转录的画廊风格的OCR数据集,以实现对产品的强大阅读并激励增强的产品匹配。除了使用各种最新技术对数据集进行基准测试外,我们还定制了一个新的检测器以进行产品检测,并提供了一个简单的基于OCR的匹配解决方案,以验证其有效性。
translated by 谷歌翻译
生长免费的在线3D形状集合决定了3D检索的研究。然而,已经进行了积极的辩论(i)最佳输入方式是触发检索,以及(ii)这种检索的最终用法场景。在本文中,我们为回答这些问题提供了不同的观点 - 我们研究了3D草图作为输入方式,并提倡进行检索的VR-Scenario。因此,最终的愿景是用户可以通过在VR环境中自由空气供电来自由地检索3D模型。作为新的3D VR-Sketch的首次刺入3D形状检索问题,我们做出了四个贡献。首先,我们对VR实用程序进行编码以收集3D VR-Sketches并进行检索。其次,我们从ModelNet收集了两个形状类别的第一套$ 167 $ 3D VR-SKETCHES。第三,我们提出了一种新的方法,以生成不同抽象级别类似人类的3D草图的合成数据集,以训练深层网络。最后,我们比较了常见的多视图和体积方法:我们表明,与3D形状到3D形状检索相比,基于体积点的方法在3D草图上表现出卓越的性能,并且由于稀疏和抽象的性质而显示出3D形状的检索3D VR-Sketches。我们认为,这些贡献将集体成为未来在此问题的尝试的推动者。 VR接口,代码和数据集可在https://tinyurl.com/3dsketch3dv上找到。
translated by 谷歌翻译
我们介绍了1,497个3D VR草图和具有较大形状多样性的椅子类别的3D形状对的第一个细粒数据集。我们的数据集支持草图社区的最新趋势,以细粒度的数据分析,并将其扩展到主动开发的3D域。我们争辩说最方便的草图场景,其中草图由稀疏的线条组成,并且不需要任何草图技能,事先培训或耗时的准确绘图。然后,我们首次将细粒度3D VR草图的场景研究为3D形状检索,作为一种新颖的VR素描应用程序和一个探索基础,以推动通用见解以告知未来的研究。通过实验在这个新问题上精心选择的设计因素组合,我们得出重要的结论以帮助跟进工作。我们希望我们的数据集能够启用其他新颖的应用程序,尤其是那些需要细粒角的应用程序,例如细粒度的3D形状重建。该数据集可在tinyurl.com/vrsketch3dv21上获得。
translated by 谷歌翻译
我们为运动计划问题提出了高斯变异推理框架。在此框架中,运动计划是对轨迹分布的优化,以通过可拖动的高斯分布近似所需的轨迹分布。同等地,提议的框架可以视为具有熵正则化的标准运动计划。因此,获得的解决方案是从最佳确定溶液到随机溶液的过渡,并且所提出的框架可以通过控制随机性水平来恢复确定性解决方案。为了解决这种优化,我们采用了自然梯度下降方案。进一步利用了由分解的目标函数引起的提议配方的稀疏性结构,以提高算法的可扩展性。我们在模拟环境中评估了几个机器人系统的方法,并表明它可以通过平滑的轨迹来避免碰撞,同时为确定性基线结果带来了鲁棒性,尤其是在具有挑战性的环境和任务中。
translated by 谷歌翻译
图形卷积网络(GCN)及其变体是为仅包含正链的无符号图设计的。许多现有的GCN来自位于(未签名)图的信号的光谱域分析,在每个卷积层中,它们对输入特征进行低通滤波,然后进行可学习的线性转换。它们扩展到具有正面和负面链接的签名图,引发了多个问题,包括计算不规则性和模棱两可的频率解释,从而使计算有效的低通滤波器的设计具有挑战性。在本文中,我们通过签名图的光谱分析来解决这些问题,并提出了两个不同的图形神经网络,一个人仅保留低频信息,并且还保留了高频信息。我们进一步引入了磁性签名的拉普拉斯式,并使用其特征成分进行定向签名图的光谱分析。我们在签名图上测试了节点分类的方法,并链接符号预测任务并实现最先进的性能。
translated by 谷歌翻译
近年来,基于深度学习的面部检测算法取得了长足的进步。这些算法通常可以分为两类,即诸如更快的R-CNN和像Yolo这样的单阶段检测器之类的两个阶段检测器。由于准确性和速度之间的平衡更好,因此在许多应用中广泛使用了一阶段探测器。在本文中,我们提出了一个基于一阶段检测器Yolov5的实时面部检测器,名为Yolo-Facev2。我们设计一个称为RFE的接收场增强模块,以增强小面的接受场,并使用NWD损失来弥补IOU对微小物体的位置偏差的敏感性。对于面部阻塞,我们提出了一个名为Seam的注意模块,并引入了排斥损失以解决它。此外,我们使用重量函数幻灯片来解决简单和硬样品之间的不平衡,并使用有效的接收场的信息来设计锚。宽面数据集上的实验结果表明,在所有简单,中和硬子集中都可以找到我们的面部检测器及其变体的表现及其变体。源代码https://github.com/krasjet-yu/yolo-facev2
translated by 谷歌翻译
预先训练的语言模型已经建立了有关各种自然语言处理任务的最新技术,包括对话摘要,这使读者可以在会议,访谈或电话中的长时间对话中快速访问关键信息。但是,这种对话仍然很难使用当前的模型来处理,因为语言的自发性涉及在用于预先培训语言模型的语料库中很少存在的表达式。此外,在这一领域完成的绝大多数工作都集中在英语上。在这项工作中,我们介绍了一项研究,使用几种特定语言的预培训模型:Barthez和Belgpt-2以及多语言预培训的模型:MBART,MBARTHEZ和MT5。实验是在Decoda(呼叫中心)对话语料库上进行的,其任务是根据情况在呼叫中心与一个或几个代理之间的呼叫中心对话中产生抽象介绍。结果表明,Barthez型号的性能最佳,远远超过了Decoda先前的最新性能。我们进一步讨论了此类预训练模型的局限性以及总结自发对话所需的挑战。
translated by 谷歌翻译
借助视频级标签,弱监督的时间动作本地化(WTAL)应用逐个分类的本地化范式来检测和分类该动作在未修剪的视频中。由于分类的特征,不可避免地会误导特定的背景片段以提高分类器在WTAL中的可区分性。为了减轻背景的干扰,现有的方法试图通过用伪snippet级注释对背景片段进行建模,从而扩大动作和背景之间的差异,这在很大程度上依赖于人工假设。与以前的作品不同,我们提出了一种对抗性学习策略,以打破采矿伪背景片段的局限性。具体而言,背景分类损失迫使整个视频被背景梯度增强策略视为背景,从而使识别模型混淆。相反,前景(动作)损失指导模型在这种情况下关注动作片段。结果,两个分类损失之间的竞争驱动了模型以提高其行动建模能力。同时,一个新型的时间增强网络旨在促进该模型基于提议的策略来构建亲和力摘要的时间关系,以进一步改善动作定位的性能。最后,在Thumos14和ActivationNet1.2上进行的广泛实验证明了该方法的有效性。
translated by 谷歌翻译
由于其在现实世界应用程序中部署机器学习模型中的重要性,因此无法分布(OOD)检测最近受到了机器学习社区的关注。在本文中,我们通过对特征的分布进行建模,提出了一种不确定性量化方法。我们进一步结合了一种有效的合奏机制,即批处理 - 构造批处理的随机神经网络(BE-SNN)并克服特征崩溃问题。我们将提出的BE-SNN的性能与其他最先进的方法进行了比较,并表明BE-SNN在几个OOD基准上产生了卓越的性能,例如两个漫画数据集,FashionMnist,FashionMnist vs Mnist Dataset,FashionMnistvs notmnist数据集和CIFAR10 vs SVHN数据集。
translated by 谷歌翻译